The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Despite high global prevalence of hepatic steatosis, no automated diagnostics demonstrated generalizability in detecting steatosis on multiple international datasets. Traditionally, hepatic steatosis detection relies on clinicians selecting the region of interest (ROI) on computed tomography (CT) to measure liver attenuation. ROI selection demands time and expertise, and therefore is not routinely performed in populations. To automate the process, we validated an existing artificial intelligence (AI) system for 3D liver segmentation and used it to purpose a novel method: AI-ROI, which could automatically select the ROI for attenuation measurements. AI segmentation and AI-ROI method were evaluated on 1,014 non-contrast enhanced chest CT images from eight international datasets: LIDC-IDRI, NSCLC-Lung1, RIDER, VESSEL12, RICORD-1A, RICORD-1B, COVID-19-Italy, and COVID-19-China. AI segmentation achieved a mean dice coefficient of 0.957. Attenuations measured by AI-ROI showed no significant differences (p = 0.545) and a reduction of 71% time compared to expert measurements. The area under the curve (AUC) of the steatosis classification of AI-ROI is 0.921 (95% CI: 0.883 - 0.959). If performed as a routine screening method, our AI protocol could potentially allow early non-invasive, non-pharmacological preventative interventions for hepatic steatosis. 1,014 expert-annotated liver segmentations of patients with hepatic steatosis annotations can be downloaded here: https://drive.google.com/drive/folders/1-g_zJeAaZXYXGqL1OeF6pUjr6KB0igJX.
translated by 谷歌翻译
尽管视觉问题答案取得了长足的进步(VQA),但当前的VQA模型严重依赖问题类型及其相应的频繁答案(即语言先验)之间的表面相关性来做出预测,而无需真正理解输入。在这项工作中,我们用相同的问题类型定义了培训实例,但与\ textit {表面上相似的实例}定义了不同的答案,并将语言先验归因于VQA模型在此类情况下的混淆。为了解决这个问题,我们提出了一个新颖的培训框架,该培训框架明确鼓励VQA模型区分表面上相似的实例。具体而言,对于每个培训实例,我们首先构建一个包含其表面上相似的对应物的集合。然后,我们利用所提出的区分模块增加了答案空间中实例及其对应物之间的距离。这样,VQA模型被迫进一步关注问题类型的输入的其他部分,这有助于克服语言先验。实验结果表明,我们的方法在VQA-CP V2上实现了最新性能。代码可在\ href {https://github.com/wyk-nku/distinguishing-vqa.git} {sickithing-vqa}中获得。
translated by 谷歌翻译
尽管已经开发了疫苗,并且国家疫苗接种率正在稳步提高,但2019年冠状病毒病(COVID-19)仍对世界各地的医疗保健系统产生负面影响。在当前阶段,从CT图像中自动分割肺部感染区域对于诊断和治疗COVID-19至关重要。得益于深度学习技术的发展,已经提出了一些针对肺部感染细分的深度学习解决方案。但是,由于分布分布,复杂的背景干扰和界限模糊,现有模型的准确性和完整性仍然不令人满意。为此,我们在本文中提出了一个边界引导的语义学习网络(BSNET)。一方面,结合顶级语义保存和渐进式语义集成的双分支语义增强模块旨在建模不同的高级特征之间的互补关系,从而促进产生更完整的分割结果。另一方面,提出了镜像对称边界引导模块,以以镜像对称方式准确检测病变区域的边界。公开可用数据集的实验表明,我们的BSNET优于现有的最新竞争对手,并实现了44 fps的实时推理速度。
translated by 谷歌翻译
旋转速度是要测量的重要指标之一,用于校准制造中的电动机,在汽车维修期间监视发动机,电气设备上的故障等。或在现实世界应用程序方案中使用不便。在本文中,我们提出了通过在移动设备上有效的动态视觉传感的基于事件的转速表。通过将动态视觉传感器作为一种新的传感模式引入动态视觉传感器,将EV-TACH设计为高保真和方便的转速表,以在各种现实世界中精确地捕获高速旋转。通过设计一系列的信号处理算法定制,用于移动设备上的动态视觉感测,EV-TACH能够从旋转目标上的动态视觉传感产生的事件流中准确提取旋转速度。根据我们的广泛评估,EV-TACH的相对平均绝对误差(RMAE)高达0.03%,在固定测量模式下与最先进的激光转速计相当。此外,EV-TACH对于用户手的微妙运动具有鲁棒性,因此可以用作手持设备,在该设备中,激光转速计无法产生合理的结果。
translated by 谷歌翻译
只有单个目标扬声器的语音供参考的单发语音转换(VC)已成为一个热门研究主题。现有作品通常会散布音色,而有关音高,节奏和内容的信息仍然混合在一起。为了进一步删除这些语音组件,有效地执行一声VC,我们采用随机重新采样用于音高和内容编码器,并使用互信息的各种对比对数比率上限和基于梯度反向层的对抗性相互信息学习来确保不同部分在训练过程中仅包含所需的分离表示的潜在空间。 VCTK数据集的实验显示该模型就自然性和智能性方面实现了一声VC的最新性能。此外,我们可以通过语音表示分离分别传递音色,音调和节奏的单发VC的特征。我们的代码,预训练的模型和演示可在https://im1eon.github.io/is2022-Srdvc/上获得。
translated by 谷歌翻译
双方图上的双簇是一项无监督的学习任务,同时将图形中的两种类型的对象簇(例如,在电影评论数据集中)中的用户和电影中簇。潜在块模型(LBM)已被提出为基于模型的双簇工具。但是,LBM的双簇结果通常由数据矩阵的行和列总和(即度)主导。我们提出了一个学位校正的潜在块模型(DC-LBM),以适应行和列簇的学位异质性,这极大地超过了Movielens数据集中的经典LBM和模拟数据。我们通过观察到在群集标签上的任何概率分配的M步骤中最大化目标函数来开发有效的变分期望最大化算法。我们证明了DC-LBM下变异估计器的标签一致性,只要行的平均预期行和列进入无穷大,预期的图密度就会达到零。
translated by 谷歌翻译
环境微生物(EMS)在我们周围普遍存在,对人类社会的生存和发展产生了重要影响。然而,对环境微生物(EM)数据的高标准和严格要求导致现有相关数据库的不足,更不用说具有GT图像的数据库。这个问题严重影响了相关实验的进展。因此,本研究开发了环境微生物数据集第六版(EMDS-6),其中包含21种EMS。每种类型的EM包含40个原件和40 GT图像,总共1680个EM图像。在这项研究中,为了测试EMDS-6的有效性。我们选择图像处理方法的经典算法,例如图像去噪,图像分割和目标检测。实验结果表明,EMDS-6可用于评估图像去噪,图像分割,图像特征提取,图像分类和对象检测方法的性能。
translated by 谷歌翻译
快速学习已成为现代自然语言处理的新范式,它直接适应培训的语言模型(PLMS)到$ CLOZE $ -Style预测,自回归建模或序列到序列生成,从而导致各种任务的表现。但是,尚未提出及时学习的标准实施框架,以及大多数现有的及时学习码条,通常是不受管制的,仅为特定方案提供有限的实现。由于有许多细节,例如模板策略,初始化策略和语言化策略等,因此需要在快速学习中考虑,从业者面临障碍,以便快速调整所需的迅速学习方法到他们的应用程序。在本文中,我们展示了{OpenPrompt},一个统一的易于使用的工具包,可以通过PLMS快速学习。 OpenPrompt是一项研究型框架,配备了效率,模块化和可扩展性,其组合性允许自由地将不同的PLMS,任务格式和提示模块组合在统一的范例中。用户可以宽松地部署快速学习框架,并在没有约束的情况下在不同的NLP任务上评估它们的泛化。 OpenPrompt在{\ url {https://github.com/thunlp/openprompt}}上公开发布。
translated by 谷歌翻译
近年来,场景文本检测和识别的研究重点已转移到任意形状文本,文本形状表示是一个基本问题。理想的表示应紧凑,完整,高效和可重复使用,以便我们认为后续认可。但是,以前的表示在一个或多个方面存在缺陷。薄板间隙(TPS)转换在场景文本识别方面取得了巨大成功。受到这一点的启发,我们逆转了它的用法,并精致地将TPS视为任意形状文本表示的精美表示。 TPS表示是紧凑,完整和有效的。使用预测的TPS参数,可以将检测到的文本区域直接纠正到近冬季的参数,以帮助后续识别。为了进一步利用TPS表示的潜力,提出了边界对准损失。基于这些设计,我们实现了文本检测器tpsnet,可以方便地将其扩展到文本次数。对几个公共基准的广泛评估和消融表明,提出的文本表示和斑点方法的有效性和优势。特别是,TPSNET在ART数据集上实现了4.4 \%(78.4 \%vs. 74.0 \%)的检测F量改进,并且在5.0 \%(78.5 \%vs. 73.55)上进行了端到端的斑点f-Measure改进。 \%)在总文本上,这是没有铃铛和口哨的大边缘。
translated by 谷歌翻译